3D卷积神经网络(3D CNN)在诸如视频序列之类的3D数据中捕获空间和时间信息。然而,由于卷积和汇集机制,信息损失似乎是不可避免的。为了改善3D CNN的视觉解释和分类,我们提出了两种方法; i)使用培训的3dresnext网络聚合到本地(全局 - 本地)离散梯度的层面全局,II)实施注意门控网络以提高动作识别的准确性。拟议的方法打算通过视觉归因,弱监督行动本地化和行动识别,显示各层在3D CNN中被称为全球局部关注的有用性。首先,使用关于最大预测类的BackPropagation培训3dresnext培训并应用于动作分类。然后将每层的梯度和激活取样。稍后,聚合用于产生更细致的注意力,指出了预测类输入视频的最关键部分。我们使用最终关注的轮廓阈值为最终的本地化。我们使用3DCAM使用细粒度的视觉解释来评估修剪视频中的空间和时间动作定位。实验结果表明,该拟议方法产生了丰富的视觉解释和歧视性的关注。此外,通过每个层上的注意栅格的动作识别产生比基线模型更好的分类结果。
translated by 谷歌翻译